贷款数据集有113937条数据,共81个变量,变量的结构如下:
1.贷款人身份信息
2.贷款人信用历史借贷信息
3.贷款信息
4.贷款人在prosper上面的借贷信息
在此数据集中主要感兴趣的特征有:
1.贷款类型分析
从该图看出,贷款大部分用于债务,还有大量客户选择了“不提供”和“其它”,此项数据有待考究。
2.贷款状态:年贷款金额分析
由上图看出,贷款金额范围在0~$35000,贷款金额的分布偏左,贷款金额多数集中在$10000以内。
3.贷款期数分布
贷款期数为1-5年,大部分贷款期数为3年,少部分为5年。
4.贷款利率分布
贷款利率集中在0.15~0.2之间,峰值出现在0.15,0.18,还有一部分人集中在0.33。
5.贷款人信息:地区/收入/房产/就业状态
贷款人集中在加利福尼亚区,由于prosper是加州的公司,数据也比较合理。然后分别是得克萨斯,纽约,佛罗里达,伊利诺伊。这几个州都是美国人口基数大的州,因此申请人数居多也是正常。
6.贷款人信息:收入
贷款人大多数收入分布在$25000~$70000美元之间,但是还是有一部分人没有提供收入范围,存在一定的贷款风险。
7.贷款人信息:就业状态
大部分贷款客户处于在职状态,应该具有偿还贷款的能力。
8.贷款人信用评分及等级
上图可以看出,客户的信用等级集中在700分左右,根据时间划分后,整体的信用等级分布稳定。
9.贷款人资产负债比
由上图可以看出,贷款人的资产负债比例集中在左侧,也就是呈负偏态分布,大部分集中在0~0.25左右,相对较稳定。
10.贷款人欠款分析
由上图可以看出,贷款客户大部分未拖欠贷款,而从历史数据7年来看,与现有的贷款拖欠数量分布类似。
1.贷款收益及损失情况:
由上图可知,贷款年利率,有效收益率和预估回报率分布类似,并未出现异常分布情况,为贷款利率的分析提供了支持。
2.贷款人历史信息
由上图可知,贷款风险评分呈正态分布。
1.增加了贷款拖欠率,可以了解贷款拖欠的比例情况;
2.增加了客户信用评分,可以看出客户的信用评分;
3.区分了peopser的新老客户,可以针对新老客户进行分析,应用不同的策略。
1.贷款类型存在疑惑,大部分客户贷款用于债务,而还有一部分客户选择了没有提供类型和其它类型选项,我们无从得知贷款真正用于何处,因此此选项不具备参考价值。
2.09年之前的信用等级评分AA级人数多于A级,按照等级来区分,两头的数据量应该分布较少,不过09年以后进行了调整,加上样本量较大,因此分布较为均衡。
3.对部分数据的日期进行整理,转换成日期格式,并且新增了拖欠率和客户评分,对新老客户进行了区分,方便后期分析使用。
1.贷款人收入与贷款金额
贷款人月收入与贷款金额之间相关系数
##
## Pearson's product-moment correlation
##
## data: pp$StatedMonthlyIncome and pp$LoanOriginalAmount
## t = 69.353, df = 113940, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1956816 0.2068243
## sample estimates:
## cor
## 0.2012595
从上图可以看出,随着贷款人月收入的提高,贷款金额也相对应提高,但相关性不强。
2.1 房产与贷款金额
2.2房产与客户信用评分
由此图可以看出,有房的人信用评分更高,能贷更多金额。
3.信用等级和贷款金额(2009年前后对比)
由上面两个图可以看出,贷款金额随着信用等级的降低而降低。但是09年之前的数据显示,信用等级B贷款均值最高,可能是09年之前的评级有部分问题,而在09年之后做了改动,数据显示正常,等级越高,贷款金额越高。而从两年的数据我们也可以看出,09年之后的贷款金额高于09年之前。
4.贷款期限与贷款金额
由此图我们可以看出,贷款金额越高,客户越倾向于选择时间长的分期。
5.2009年之前贷款随年份的均值变化
由上图我们可以看出,06年~09年的贷款均值是先上升后下降,有必要了解这几年的贷款背景。
6.2009年之后贷款随年份的均值变化
由上图我们可以看出,在09年之后,贷款均值随年份的升高而升高。
7.信用评分与贷款利率(2009年前后对比)
由以上两个对比图我们可以看出,贷款利率随信用评分的增加而降低,而在09年之后,取消了对信用评分低于600分的客户发放贷款。
8.贷款拖欠率与贷款金额
##
## Pearson's product-moment correlation
##
## data: pp$TradesDelinquent..percentage. and pp$LoanOriginalAmount
## t = -85.13, df = 106390, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2581515 -0.2469002
## sample estimates:
## cor
## -0.2525344
由上图可以看出,贷款拖欠率越高,贷款金额越少。
1.2009年之后新老客户信用分数对比
##
## Pearson's product-moment correlation
##
## data: pp$TradesDelinquent..percentage. and pp$LoanOriginalAmount
## t = -85.13, df = 106390, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2581515 -0.2469002
## sample estimates:
## cor
## -0.2525344
由上图可以看出,新客户比老客户信用评分更高。
1.2009年之前客户信用评分和贷款利率相关
##
## Pearson's product-moment correlation
##
## data: pp1$CreditScore and pp1$BorrowerRate
## t = -175.17, df = 113340, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4661358 -0.4569730
## sample estimates:
## cor
## -0.4615667
2.2009年之后客户信用评分和贷款利率相关
##
## Pearson's product-moment correlation
##
## data: pp2$CreditScore and pp2$BorrowerRate
## t = -172.11, df = 84851, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5136517 -0.5036768
## sample estimates:
## cor
## -0.5086813
由以上分析可以看出,客户信用评分和贷款利率高相关,09年相关系数为0.62,09年之后为0.51。
1.2009年以前贷款利率,贷款金额和信用等级的关系
2.2009年以后贷款利率,贷款金额和信用等级的关系
由以上两个图可以看出,09年以前的贷款金额为0~$25000,而09年以后增加贷款金额,部分金额在$25000以上,而从利率的角度来看,09年以后的利率普遍比09年以前低,应该是改变了部分政策,而且贷款金额越高,利率越低。另外我们可以看出信用等级跟贷款利率的关系越来越紧密。
3.2009年以后贷款利率,贷款金额和风险评分的关系
由上图可以看出,贷款评分越高的人,贷款利率越有可能低于0.15,而且贷款风险越高,越有可能贷到$25000以上的贷款,贷款评分越高,也就是贷款风险越低的人,贷款利率越低。
4.新老客户在不同年份贷款金额对比
由上图看出,新老客户的贷款金额差不多,但是在09年之后,贷款中位数基本上都很少超过$15000,而07~08年之间有少部分人获得高额贷款,但是在09年之后调整过来。
5.贷款时间,贷款金额跟房产的关系对比
由上图可以看出,有房的人普遍比没房的人贷款金额高,有少部分人高出一倍以上,而而且不受政策的影响。
1.09年政策调整之后,开放了$25000以上的贷款金额,信用等级较高的客户可享受此权利。
2.政策的更改并未影响具有房产的人的贷款优势。
我们关注的是贷款利率受什么因素的影响,在09年前后政策是否进行了哪些方面的调整,因此采用多元线性回归模型。
1.2009年之前的模型拟合度分析
##
## Calls:
## m1: lm(formula = I(BorrowerRate) ~ I(CreditScore), data = pp1)
## m2: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade,
## data = pp1)
## m3: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade +
## LoanOriginalAmount, data = pp1)
## m4: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade +
## LoanOriginalAmount + StatedMonthlyIncome, data = pp1)
##
## ===================================================================
## m1 m2 m3 m4
## -------------------------------------------------------------------
## (Intercept) 0.554*** 0.192*** 0.170*** 0.169***
## (0.002) (0.011) (0.011) (0.011)
## I(CreditScore) -0.001*** -0.000 0.000 0.000
## (0.000) (0.000) (0.000) (0.000)
## CreditGrade.L 0.141*** 0.167*** 0.169***
## (0.011) (0.010) (0.010)
## CreditGrade.Q -0.044*** -0.040*** -0.040***
## (0.006) (0.005) (0.005)
## CreditGrade.C -0.037*** -0.037*** -0.036***
## (0.005) (0.004) (0.004)
## CreditGrade^4 -0.016*** -0.013*** -0.013***
## (0.003) (0.003) (0.003)
## CreditGrade^5 0.002 0.003 0.003*
## (0.002) (0.002) (0.002)
## CreditGrade^6 0.009*** 0.009*** 0.009***
## (0.001) (0.001) (0.001)
## CreditGrade^7 0.004*** 0.005*** 0.005***
## (0.001) (0.001) (0.001)
## LoanOriginalAmount 0.000*** 0.000***
## (0.000) (0.000)
## StatedMonthlyIncome -0.000*
## (0.000)
## -------------------------------------------------------------------
## R-squared 0.2 0.5 0.5 0.5
## adj. R-squared 0.2 0.5 0.5 0.5
## sigma 0.1 0.1 0.1 0.1
## F 30684.3 3564.2 3510.0 3160.3
## p 0.0 0.0 0.0 0.0
## Log-likelihood 146748.6 43394.1 44141.6 44144.9
## Deviance 498.2 77.9 73.9 73.8
## AIC -293491.3 -86768.3 -88261.1 -88265.7
## BIC -293462.4 -86685.7 -88170.3 -88166.7
## N 113346 28362 28362 28362
## ===================================================================
2.2009年之后的模型拟合度分析
##
## Calls:
## m5: lm(formula = I(BorrowerRate) ~ I(CreditScore), data = pp2)
## m6: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha.,
## data = pp2)
## m7: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha. +
## LoanOriginalAmount, data = pp2)
## m8: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha. +
## LoanOriginalAmount + StatedMonthlyIncome, data = pp2)
##
## =======================================================================
## m5 m6 m7 m8
## -----------------------------------------------------------------------
## (Intercept) 0.767*** 0.174*** 0.174*** 0.174***
## (0.003) (0.001) (0.001) (0.001)
## I(CreditScore) -0.001*** 0.000*** 0.000*** 0.000***
## (0.000) (0.000) (0.000) (0.000)
## ProsperRating..Alpha..L 0.224*** 0.224*** 0.224***
## (0.000) (0.000) (0.000)
## ProsperRating..Alpha..Q -0.001*** -0.001*** -0.001***
## (0.000) (0.000) (0.000)
## ProsperRating..Alpha..C -0.014*** -0.014*** -0.014***
## (0.000) (0.000) (0.000)
## ProsperRating..Alpha.^4 -0.007*** -0.007*** -0.007***
## (0.000) (0.000) (0.000)
## ProsperRating..Alpha.^5 -0.003*** -0.003*** -0.003***
## (0.000) (0.000) (0.000)
## ProsperRating..Alpha.^6 0.003*** 0.003*** 0.003***
## (0.000) (0.000) (0.000)
## LoanOriginalAmount 0.000 0.000*
## (0.000) (0.000)
## StatedMonthlyIncome -0.000***
## (0.000)
## -----------------------------------------------------------------------
## R-squared 0.3 0.9 0.9 0.9
## adj. R-squared 0.3 0.9 0.9 0.9
## sigma 0.1 0.0 0.0 0.0
## F 29620.2 129092.7 112957.6 100424.9
## p 0.0 0.0 0.0 0.0
## Log-likelihood 112513.2 203981.8 203982.7 203990.2
## Deviance 350.3 40.6 40.6 40.6
## AIC -225020.4 -407945.6 -407945.5 -407958.4
## BIC -224992.4 -407861.4 -407852.0 -407855.6
## N 84853 84853 84853 84853
## =======================================================================
从以上结果可以看出,09年之前的模型与09年之后的模型存在差异,因为模型p<0.01,显著,因此可以进行对比。我们可以看出,09年之后贷款利率受信用评分的影响变小了,而受其它数据,如信用等级,贷款人月收入,贷款金额的影响变大。
2009年之后,贷款金额逐年提升,相比2010年,2014年贷款均值已超过$10000美元。可以看出贷款需求逐年增加。
由以上对比图可以看出,2009年之后取消了对信用评分低于600分以下的客户发放贷款。而从信用评分600分及以上的客户,我们可以看出,信用评分分值越高,贷款利率越低。
由上图可以看出,贷款分数越高,风险越小的客户,贷款金额越高。从贷款金额的坐标看来,金额高于$25000的贷款,基本上只发放给贷款分数高的客户,而从贷款利率的坐标来看,可以看出大部分贷款评分低的客户,贷款利率都比较高,集中在0.2以上,而贷款评分高的客户,贷款利率集中在0.1以下。
在分析前期,对数据结构的理解就产生了困难,首先由于变量很多,需要一个个理清变量的定义及数据集的背景。
其次,要选定自己感兴趣的变量,在对数据完全陌生的情况下进行探索,因此需要从多个变量入手,先整理部分变量,进行转换及排序,确定其描述性统计信息,然后再选择几个关注点进行分析,从整体上看,选择了贷款人背景,贷款信息和贷款人的信用历史来进行分析,然后挑出了贷款金额、贷款利率和贷款信用等级作为重点,其次还创建了新变量,考察贷款拖欠率对贷款的影响,中间还关注了贷款人房产,月收入和信用评分等背景是否对贷款金额产生影响。
而在分析过程中,不仅要通过不同的图形去挖掘数据的信息,还要在图形的对比中看是否有潜在的趋势。
最终的难点在于,进行模型建构的时候,并未能很好地选择模型的影响因素,只能凭部分直觉去建构,需要在后续探索中改善。
在双变量分析的时候,慢慢探索两两变量之间的关系,发现了一些对比趋势后,才能更佳清晰自己的分析结构,从而修正自己之前的直觉。
第一,由于分析只选定了部分变量,并未充分地考虑其它变量对研究主题的影响,因此后续可以增加其它变量来挖掘其内在的关系;
第二,模型只选定了多元线性回归模型进行拟合,并未选择其它方法提升模型的建构能力。后期可采用其它模型分析方法来丰富分析效果。
第三,此分析方式为静态分析,并未包含动态交互,可根据后期课程学习来提升可视化水平。
参考资料: